Une métrique pondérée pour la recherche textuelle d'images dans des documents semi-structurés
نویسندگان
چکیده
The birth of the XML standard and the growing use of images in electronic documents raised an open issue in information retrieval: image retrieval in semi-structured documents. This article presents a method to evaluate a semantic representation of images using the text and the document structure. More precisely, we propose a measure that evaluates the participation of each element of the document in the image representation. This measure is inspired by a measure of semantic similarity between ontology’s concepts. Our method is evaluated in the context of the INEX 2006 campaign. MOTS-CLÉS : image, représentation sémantique, xml, contexte
منابع مشابه
Propositions pour la recherche contextuelle d'images dans des documents XML
RÉSUMÉ. Cet article s’inscrit dans le cadre de la recherche d’images dans des documents XML. Ce type de recherche peut utiliser des informations sémantiques en plus des informations visuelles de l’image. Nous nous proposons ici d’explorer des pistes pour la recherche de ces informations sémantiques au sein des documents XML, en supposant qu’une image peut être présentée par les autres éléments ...
متن کاملCompression de structure XML pour la recherche d'information structurée
RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...
متن کاملUtilisation de concepts visuels et de la diversité visuelle pour améliorer la recherche d'images
RÉSUMÉ. Dans cet article, nous étudions (i) comment extraire et exploiter des concepts visuels pour améliorer la recherche d’images basée sur le texte, et (ii) comment diversifier les résultats pertinents obtenus. Nous utilisons d’abord des forêts d’arbre de décisions flous (FFDTs) pour détecter les concepts dans les images, puis nous découvrons à l’aide de l’analyse des cooccurrences des relat...
متن کاملApprentissage actif pour l'annotation de documents
RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....
متن کاملUtilisation de la langue naturelle pour l'interrogation de documents structurés
RÉSUMÉ. Le langage de requête est l’indispensable interface entre l’utilisateur et l’outil de recherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des documents plats, il devient fort complexe lorsqu’il s’adresse à des documents structurés et qu’il s’agit de définir des contraintes portant à la fois sur la structure et le contenu. L’approche icidécrite propose d’...
متن کامل